Cabezas de Atención Posicional vs Simbólica: Dinámicas y Generalización
Descubre cómo las cabezas de atención posicionales y simbólicas aprenden en Transformers, su geometría RoPE y generalización de longitud.
Descubre cómo las cabezas de atención posicionales y simbólicas aprenden en Transformers, su geometría RoPE y generalización de longitud.